\section{Daten}
\begin{frame}
       \frametitle{Daten}
       \begin{itemize}
       \item PatTR Corpus - Englisch/Deutsch parallel, 23M Sätze
       \item Claims-Sektion: ca. 8.350.000 Sätze
       \item Trainings-Set: ca. 75\%
       \item Dev-Sets: ca. 20\%
       \item Test-Set: ca. 5\%
       \end{itemize}
\end{frame}

\begin{frame}
       \frametitle{Korpus-Partitionierung}
       \begin{itemize}
       \item Partitionierung anhand von Metadaten
       \item Mögliche Merkmale: Jahr, IPC-Klassifikation
       \end{itemize}
\end{frame}
   

\section{Tools}
\begin{frame}
       \frametitle{Tools}
       \begin{itemize}
       \item MOSES: Language Model und Phrase Table
       \item GIZA++: Erzeugung der Word Alignment Daten
       \item Hadoop: Map-Reduce-Tool zur Parallelisierung der Matchfindung
       \end{itemize}
\end{frame}   

\section{GoogleCode}
\begin{frame}
       \frametitle{GoogleCode}
       \begin{itemize}
       \item Nutzung der GCode Projektumgebung
       \item Vorteile: Verfügbarkeit, Struktur
      \end{itemize}
\end{frame}